max rank | avg. rank | sentence |
---|---|---|
458 | 215.7778 | Ovo je područje u kojem živi većina stanovništva zemlje. |
783 | 324.1250 | Za prvu momčad nastupa već dvije godine poslije. |
832 | 265.8571 | Unatoč tome što je tijekom sezone 2009. |
905 | 477.5000 | Krajem listopada i početkom studenog 2001. |
950 | 345.9000 | Ovaj je film objavljen u SAD -u 21. studenog 2008. |
1063 | 327.9000 | Stanovništvo Prema popisu iz 2011. naselje je imalo 15 stanovnika. |
1063 | 359.8000 | Stanovništvo Prema popisu iz 2011. naselje je imalo 8 stanovnika. |
1134 | 421.1111 | U više od 20 sezona odigrao je niz uloga. |
1367 | 480.1429 | Za reprezentaciju Jugoslavije igrao je sedam puta. |
1409 | 463.0000 | Bio je prvak Jugoslavije u dobi od 16 godina. |
1538 | 687.8571 | Njegovo ime znači "onaj koji se razvija". |
1542 | 696.6667 | Na temelju filma, isti autor objavio je i knjigu. |
1577 | 541.1000 | Nakon toga, na red je došao posljednji čin njegove igre. |
1642 | 602.0000 | Pjesma je objavljena 11. ožujka 2008. godine. |
1678 | 466.7000 | Međutim, vladao je samo sedam dana, jer je ubrzo ubijen. |
1849 | 672.8333 | Krajem listopada i početkom studenog 1943. |
1929 | 741.6667 | Od 12. stoljeća odnos se prema tijelu postupno mijenja. |
1933 | 415.2500 | U ulici u kojoj se nalazi crkva, nalaze se mnoge stare kuće. |
1944 | 732.2857 | Za B reprezentaciju nastupio je tri puta. |
1953 | 477.2000 | Tek na ovaj način bilo je moguće imati veliki broj informacija u samo jednoj knjizi. |
1961 | 346.8333 | S druge strane, možda je bio general koji je došao do vlasti. |
1970 | 683.1250 | Prvi let bio je u listopadu 1990. godine. |
1997 | 338.0625 | U posljednjih nekoliko godina, uglavnom zbog toga što su se mnogi od igrača momčadi iz 1997. |
2001 | 553.6667 | To su najveće ptice koje danas žive na zemlji. |
2037 | 559.9000 | Ipak, bilo je i još većih temperatura, 15. rujna 1987. |
2104 | 1023.5714 | Ovaj samostan otvoren je 11. lipnja 1989. |
2110 | 911.1429 | Time započinje službeni nogometni put ovog kluba. |
2147 | 498.6667 | Za to bivše naselje sadrži dio podataka u 1991. |
2190 | 890.4286 | Ovo natjecanje se igra od polovice 1980-ih. |
2194 | 683.2500 | Iste godine u studenom preminuo mu je otac. |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II